#AI 論文
AI 能寫詩能寫論文,卻連杯子轉 90 度都猜不對?“AI教母”李飛飛道破真相
AI 能寫詩、寫論文,卻連杯子轉 90 度啥樣都猜不對?!最近矽谷被一篇萬字長文炸翻了,作者是華人 AI 圈的傳奇 —— 李飛飛,圈內人都喊她 “AI 教母”。她在文章裡直接開炮:現在的 AI 看著能說會道,其實全是 “睜眼說瞎話”!嘿,朋友,你是不是也覺得 AI 特別牛?寫文案、做總結、甚至模仿名人說話,樣樣都行。可李飛飛這話一出來,好多人都懵了:AI 明明這麼厲害,怎麼會是 “睜眼瞎”?咱們拿實際情況說說。讓 AI 寫首詩,它分分鐘模仿李白杜甫的調調,辭藻華麗得沒話說。可你要是讓它估估你家桌子到門的距離,或者猜猜杯子旋轉 90 度會變成啥樣,它就徹底露餡了,全靠瞎蒙。那些刷到的炫酷 AI 視訊,你仔細看全是破綻:視訊裡的人突然多了根手指,小物件毫無徵兆就穿牆而過,完全不符合咱們現實裡的規矩。李飛飛說,這不是 AI 不夠努力,而是咱們給它指錯了方向。AI 的未來,不在於搞更大的語言模型,而在於擁有一種連小嬰兒都有的能力 —— 空間智能。這可是通往真正通用人工智慧的唯一路徑。那到底啥是空間智能呢?其實就是咱們理解和互動物理世界的本能。小嬰兒靠抓東西、扔東西、咬東西認識世界;你半夜起床倒水,不用開燈也能摸準杯子的位置;朋友扔鑰匙給你,你不用算什麼拋物線,伸手就能接住。歷史上好多改變文明處理程序的重大發現,也離不開這種能力。有人通過觀察影子的長度,就算出了地球的周長;還有科學家通過搭建 3D 模型,發現了 DNA 的雙螺旋結構。這些事兒,光靠只會讀寫的語言模型,永遠也做不到。李飛飛給出的解決方案很明確:讓 AI 從 “語言模型” 轉向 “世界模型”。一個真正靠譜的世界模型,得具備三種核心能力:✅ 能生成符合物理定律的虛擬世界,裡面的一切都得按現實規矩來;✅ 能理解和整合文字、圖像、動作等多種指令,不光能聽懂你說的話,還能看懂你做的事;✅ 最關鍵的,能精準預測互動結果 —— 簡單說,就是讓 AI 真真正正 “看懂” 這個世界。這可比訓練語言模型難多了。語言是一維的,就像一條直線;而世界是四維的,包含三維空間和時間,還得遵守無數物理定律。要是 AI 真的擁有了空間智能,那日子可就太有意思了!李飛飛團隊已經開發出了相關模型,現在電影製作人、遊戲設計師,只用口頭描述,就能生成可互動的 3D 世界。以後人人都能當 “造物主”,不用學複雜的 3D 軟體,也能實現自己的創意。機器人也不會再笨手笨腳了。它們能在模擬環境中學會成千上萬種技能,走進家庭幫著做家務,走進醫院協助醫生,成為咱們的得力助手。最讓人期待的是科學與教育的加速發展。學生可以 “走進” 古羅馬的街道,或者鑽進細胞內部,直觀感受知識;醫生能在 AI 的輔助下,更快發現疾病;科學家還能模擬深海、外太空這些人類難以抵達的地方,探索更多未知。李飛飛說得特別好:AI 的終極目標不是取代人類,而是為人類賦能。現在的大語言模型,只是 AI 發展的一個開始。真正的智能,是讓機器理解我們生活的物理世界。最後想問問大家:如果 AI 真的掌握了空間智能,你最想讓它幫你造一個什麼樣的世界?快來評論區聊聊你的奇思妙想吧! (前程有鵬友)
神了!GPT-5“靈感湧現”,幫頂級量子科學家突破論文關鍵函數步驟
“這是我目前發過的所有論文裡,第一次有關鍵技術步驟是由AI搞定的,思路源自GPT-5-Thinking。”當下頗具影響力的理論電腦和量子計算大牛Scott Aaronson在最新發表的部落格文章中如此感慨道。Scott Aaronson是誰?他被廣泛認為是當今最聰明的人之一,80後科學家,學術圈知名度跟陶哲軒不分伯仲,他現任美國德克薩斯大學奧斯汀分校百年講席教授,並擔任該校量子資訊中心創始主任。Aaronson是量子計算與複雜性理論的奠基者,曾與同事共同提出“高斯玻色取樣”這一量子計算任務,為實驗驗證 “量子霸權”(quantum supremacy)奠定了理論基礎,目前已是成為全球頂尖科研機構量子計算實驗的重要參照系。究竟發生了什麼讓這位聰明的科學家對AI刮目相看並讚賞有加?GPT-5給科學家提出“關鍵”建議事情發生在幾天前,Scott Aaronson和荷蘭國家數學和電腦科學研究所(CWI)的Freek Witteveen合作,在arXiv上發表了一篇題為《量子複雜度類QMA中黑箱放大的侷限性》的論文。Aaronson在量子計算的基礎理論領域貢獻卓著。2008年,他通過構造量子諭示(quantum oracle)證明了量子複雜度類QMA(量子梅林-亞瑟)與QMA₁(具有完美完備性的QMA)的分離,即存在某些問題在量子計算模型下無法實現100%的驗證精準率。這一結果為量子計算的能力邊界劃定了重要標尺,被學界視為該領域的經典之作。簡單來說,新論文研究了量子複雜度類QMA(量子梅林-亞瑟)中黑箱放大的侷限性。可以把QMA想像成一場“量子批卷考試”,有兩個角色:梅林相當於“學生”,亞瑟相當於“老師”。科學家都希望老師批卷能“全對”—— 也就是“只要答案是對的,就100%判對”(專業詞彙叫作“完美完備性”)。在經典數學裡(比如普通的電腦演算法),“批卷老師”(經典版MA)早就能做到“百批百對”,但到了量子計算領域,問題就卡殼了,想把量子批卷的“判對誤差”縮到超級小非常困難,而現在Aaronson證明,任何QMA協議,都能通過黑箱方法,把完備性誤差縮小到“雙重指數級”。在這篇論文論證過程中,當時他們卡在一個“數學坎”上:要分析一個特別複雜的“量子公式”(專業叫N×N埃爾米特矩陣),對於他們而言大概需要一兩周時間去查文獻、測試不同的解題思路。但為了省點時間,這次他們嘗試向GPT-5-Thinking提問。一開始,它5分鐘就給了一個答案:看起來自信又合理,但作為資深科學家,Aaronson一眼就看出其不對的地方,不過沒直接否定,而是繼續告訴它“那裡出錯了”,接著,它又重新思考、道歉,再給出新方案——整個過程像極了教授和研究生或同事討論問題。大概半小時後,GPT-5-Thinking建議兩位科學家研究一個新函數,而且經驗證後發現:這方法居然真的管用!Aaronson表示:如果這是人類學生提出的思路,我肯定會誇他“腦子轉得真快”,很多時候,科研難題就差這麼一層“窗戶紙”,誰捅破誰厲害,到了2025年9月,AI終於“進軍”了“最具人類代表性的智力活動”——量子複雜度類的諭示分離證明。當然,現在AI還幾乎不可能獨立寫出一篇“正確且高品質”的科研論文,但它能作為“科研搭子”,幫那些“本身知道大概方向的研究者突破靈感和瓶頸”——這無疑是一個“黃金階段”。Aaronson調侃說:幸好我有終身教職(不用擔心被AI“搶飯碗”)。AI正在成為核心“合著者”2025年,AI與頂尖科研人員的協作已從“輔助工具”階段躍升至“深度協同”階段,在多個基礎科學與技術前沿領域取得了革命性進展,“科學突破”的速率可能越來越快。即便是基礎科學,也不再是“人類的獨角戲”。例如,中國科學技術大學團隊與上海人工智慧實驗室合作,利用深度學習技術建構了包含2024個原子的無缺陷量子計算陣列,創下新的世界紀錄,這一突破使量子電腦的規模化成為可能,為量子糾錯和實用演算法開發奠定了基礎。歐洲核子研究中心(CERN)的ATLAS實驗團隊通過百萬級模擬資料訓練的深度神經網路,首次在13TeV質子-質子碰撞中探測到縱向極化W玻色子,驗證了希格斯機制對粒子質量起源的關鍵預測。GPT-5在“哥德爾測試”中成功解決三大組合最佳化猜想,提出的解法徹底顛覆了人類研究者的原有思路,被媒體評價為“首次實現AI在數學發現中的真正創造性貢獻”。AI還創造出了自然界中不存在的、具有全新化學結構的分子,其中兩個先導化合物在動物模型中成功殺滅了兩種“超級細菌”。這些突破背後,是AI與人類科學家協作範式的重構。AI開始能參並提出有價值的科研問題和思路,同時也使高通量驗證成為可能,或許不久之後,經過學術倫理認定,AI會成為名副其實的論文合著者。被罵慘的OpenAI儘管科學家對GPT-5的表現讚賞有加,但普通使用者能不能用到高配版模型並不好說。近日,OpenAI被曝在付費使用者不知情的情況下,偷偷將ChatGPT的GPT-4、GPT-5等高階模型切換至兩款低算力的“秘密模型”——gpt-5-chat-safety和gpt-5-a-t-mini,引發使用者一片聲討。不少使用者氣憤地表示,這種隱性的剝奪以及公然違背產品倫理的行為,正在嚴重損害使用者的選擇權、情感權利和經濟信任,這不僅僅是一個技術或產品問題,而是一家全球人工智慧公司以卑鄙的手段背叛使用者的信任和喜愛。儘管OpenAI副總裁Nick Turley回應稱是因為正在測試新安全系統,強調“僅針對敏感話題臨時切換”,且“詢問時會告知模型資訊”,但這一解釋未能平息質疑,使用者協議未提及模型動態替換條款,部分使用者發起集體訴訟,指控OpenAI構成“欺騙性商業行為”。OpenAI創始人兼首席執行官Sam Altman並未對“GPT降智門”事件進行回應,但在近期採訪時表示,預計新一代AI模型將於2026年問世,並聲稱它的進步可能會“相當令人驚訝”,到2030年,人工智慧或將真正超越人類智能。 (頭部科技)
蘋果一紙論文“打臉”整個AI圈:你們的推理AI都是假的?
2025年6月7日,距離蘋果WWDC僅僅兩天,一篇標題極具話題性的研究論文突然出現在蘋果機器學習官網:《思考的幻覺:通過問題複雜度視角理解推理模型的優勢與侷限》。這個時機選擇堪稱"完美"——所有人都在期待蘋果在即將到來的開發者大會上展示如何追趕OpenAI、Google等AI巨頭,結果蘋果反其道而行之,直接質疑整個"推理AI"的根基。有人稱讚蘋果就像是站出來說"皇帝沒有穿衣服"的小孩,也有人質疑蘋果在為AI競爭格局中的落後找藉口而已。一、社交媒體的"恐慌":AI圈為何如此震動?蘋果這篇論文在社交媒體上引發熱論,在Twitter上,一條解讀蘋果論文的推文獲得了超過1000萬的瀏覽量。爭論主要分為幾派:悲觀派:"這篇論文證明了這些模型本質上只是機率錄音機,而不是真正的思考機器。"技術派:認為模型的失敗源於輸出token限制,而非推理能力缺陷。方法論質疑派:指出蘋果用解答長度作為難度指標存在問題,可能誤導了結論。專家圈也出現分化,著名AI學者Gary Marcus將這篇論文稱為對大模型的"毀滅性打擊",他的評論區成了"戰區"——風險投資人與電腦科學教授激烈爭論是否會迎來"AI寒冬2.0"。二、巧妙的實驗設計:四個遊戲戳破“神話”蘋果研究團隊摒棄了傳統的數學和編碼基準測試,轉而設計了一套基於經典謎題的測試環境:四種拼圖環境(漢諾塔、跳棋交換、過河問題、積木世界)為什麼選擇謎題而非傳統基準?傳統AI基準測試存在嚴重問題:- 資料污染:模型可能在訓練時見過類似題目- 難度不可控:無法精確調節問題複雜度- 評估單一:只看最終答案,忽略推理過程蘋果選擇的四個謎題各有深意:- 河內塔:通過增加圓盤數量可以精確控制難度,最少步數為2^N-1步,是測試遞迴推理的經典問題。- 跳棋交換:線上性棋盤上通過滑動和跳躍來交換棋子位置,測試序列規劃能力。- 過河問題:多個角色需要在安全約束下通過小船渡河,考驗約束條件下的邏輯推理。- 積木世界:重新排列堆疊積木以達到目標配置,評估空間推理能力。三、令人震驚的三段式崩潰模式實驗結果徹底顛覆了人們對"推理AI"的認知。所有被測試的推理模型——包括Claude 3.7 Sonnet、DeepSeek-R1、o3-mini等——都展現出了相同的三段式表現:思考模型與非思考模型在不同複雜度下的精準率對比圖第一階段:低複雜度的"過度思考"陷阱在簡單問題上,推理模型的表現竟然比標準LLM更差。更令人啼笑皆非的是:模型常常先找到正確答案,然後繼續"深度思考",最終推翻了正確答案。這就像一個學生做1+1=2的題目,先得出正確答案,然後"越想越複雜"把答案改錯了。第二階段:中等複雜度的短暫輝煌在中等複雜度問題上,推理模型確實展現出優勢,精準率明顯高於標準LLM。這也解釋了為什麼這些模型在現有基準測試中表現亮眼。第三階段:高複雜度的集體投降最令人震驚的發現是:當問題複雜度超過某個閾值時,所有模型的精準率都歸零。推理模型的精準率與思考Token用量隨複雜度變化的關係更反直覺的是,隨著問題變難,這些模型的"思考"時間反而開始縮短。就像一個學生遇到難題時直接放棄,連嘗試都不願意。以河內塔為例:3-5個圓盤:推理模型表現良好8個圓盤:精準率急劇下降15個圓盤以上:精準率歸零,模型"懶得思考"最致命的發現:演算法執行的徹底失敗研究中最顛覆認知的發現是:即使給模型提供了完整的解題演算法,它們仍然無法正確執行。研究團隊在提示詞中詳細描述了河內塔的遞迴解法,但模型的表現並沒有顯著改善。這說明問題不在於"不知道怎麼做",而在於"無法可靠地執行已知步驟"。這個發現徹底打破了一個普遍假設:給AI足夠清晰的指令,它就能正確執行。現實是,當任務足夠複雜時,即使有了"標準答案",AI仍然會失敗。資料說話:GSM-Symbolic的驚人發現蘋果在論文中還引用了另一項重要研究GSM-Symbolic,進一步證實了推理模型的侷限性:來自5,000道數學題的測試資料顯示,每當在題目中加入"無關資訊"時,模型的表現就會顯著下降。Google的T5-v4模型,精準率從95%暴跌至63.1%,OpenAI推理模型o1-preview從96%下降到77.4%,小型模型從85%崩塌至僅18%。這進一步證明了模型依賴模式匹配而非真正的邏輯推理。四、深層反思:什麼才是真正的AI推理?蘋果的研究引發了一個根本性問題:什麼才算真正的推理?模式匹配vs 符號推理傳統電腦科學認為,真正的推理需要:符號操作能力:能夠處理抽象符號和規則邏輯規則執行:嚴格按照邏輯步驟進行推導系統性泛化:能夠將學到的規則應用到新場景可驗證性:推理過程可以被檢驗和驗證而大語言模型本質上是統計系統:通過大量文字學習模式生成機率上合理的輸出缺乏顯式的邏輯操作機制難以保證推理的一致性"思維鏈"的真面目蘋果的研究揭示,所謂的"思維鏈"可能只是:更複雜的模式匹配:學會了"看起來像在思考"的表達方式序列生成最佳化:通過更長的輸出序列提高某些任務的精準率偽推理過程:沒有真正的邏輯執行,只是統計關聯一位評論者說:"這些模型更像是'機率錄音機'而不是思考機器。"五、業界的激烈反應:分化與思考支持者的聲音紐約大學教授Gary Marcus直言這是對LLM的"致命一擊",認為"蘋果論文最根本地顯示,無論你如何定義AGI,LLMs都無法替代設計良好的傳統演算法。"。認為推理模型達到了根本性的擴展極限,還沒有擺脫幻覺,“如同賽車卡在一檔,加速度嚇人,但爬山能力為零”。質疑者的反駁也有研究者提出不同觀點:1. 人類基準缺失:論文沒有對比人類在相同任務上的表現。許多人類處理8個圓盤的河內塔時同樣會失敗。2. 任務代表性問題:這些謎題可能並不代表真實世界的推理需求。3. 評估方法侷限:僅以最終答案正確性評判可能忽略了推理過程中的有效思考。六、WWDC 2025的現實回應:實用AI vs 推理AI有分析師認為,蘋果發佈這篇論文是別有用心,試圖先通過研究降低外界對AI推理能力的期望,再在WWDC上推出務實可靠的AI功能,既避免陷入"推理AI"的炒作陷阱,又能凸顯Apple一直專注於真正有用的AI應用。事實證明,這個分析可能是對的。WWDC 2025的發佈完美詮釋了蘋果的實用AI哲學。6月9日的WWDC 2025上,蘋果的AI戰略與這篇論文形成呼應。當其他廠商都在追求"更大、更強、更會思考"的模型時,蘋果選擇了一條截然不同的道路。蘋果的"液態玻璃"設計哲學蘋果在WWDC 2025上推出的"Liquid Glass"設計語言也許是個隱喻——蘋果希望AI像液態玻璃一樣:透明可見:使用者知道AI在做什麼流暢自然:無縫融入日常使用適應環境:根據場景調整功能美觀實用:形式服務於功能實用AI功能的務實推進蘋果在WWDC 2025上發佈的AI功能都極其務實:即時翻譯:在電話通話、FaceTime等場景下的即時語言翻譯Visual Intelligence升級:使用者可以搜尋螢幕截圖中的任何內容智能快捷指令:AI驅動的自動化操作,但專注於具體任務語音郵件摘要:基於Apple Intelligence的實用功能開放基礎模型,而非推理模型最重要的是,蘋果宣佈向開發者開放Apple Intelligence的基礎模型框架,而不是推理模型。這與市面上主推"思考型AI"的廠商形成了鮮明對比。正如媒體評論所說:"蘋果在這次WWDC上的發佈更側重於漸進式的改進,比如通話即時翻譯等能改善日常生活的功能,而非像競爭對手那樣宣傳宏大的AI願景。結語:從幻覺到現實蘋果的《思考的幻覺》不是要否定AI的價值,而更像是“AI現實主義”,提醒保持理性。在這個AI炒作甚囂塵上時,承認侷限,務實前行。或許需要考慮重新校準期望值,不要高估當前AI的推理能力,避免被"思考型AI"的行銷話術誤導。傳統基準測試的侷限性也被暴露,需要開發更嚴格的評估框架。對於AI產品設計而言,則要考慮簡單任務,標準LLM可能更高效;中等複雜度任務,推理模型有明顯優勢;而高複雜度任務需要混合方案或傳統演算法。與其追求虛幻的"思考能力",不如專注於建構真正有用、可靠、可控的AI系統。真正的進步來自於對現實的清醒認識,而不是對概念的無限吹捧。 (JER學家)
AI圈驚天醜聞,Meta作弊刷分實錘?頂級榜單曝黑幕,斯坦福MIT痛斥
【新智元導讀】剛剛,LMArena陷入了巨大爭議,斯坦福MIT和Ai2等的研究者聯手發論文痛斥,這個排行榜已經被Meta等公司利用暗中操作排名!Karpathy也下場幫忙錘了一把。而LMArena官方立馬回應:論文存在多處錯誤,指控不實。已經有越來越多的人發現:大模型排行榜LMArena,可能已經被大廠們玩壞了!就在最近,來自Cohere、普林斯頓、斯坦福、滑鐵盧、MIT和Ai2等機構的研究者,聯手祭出一篇新論文,列出詳盡論據,痛斥AI公司利用LMArena作弊刷分,踩著其他競爭對手上位。論文地址:https://arxiv.org/abs/2504.20879與此同時,AI大佬、OpenAI創始成員Andrej Karpathy也直接下場,分享了一段自己的親身經歷。前一段時間,Gemini模型一度在LMArena排名第一,遠超第二名。但Karpathy切換使用後,感覺還不如他之前用的模型。相反,大約在同一時間,他的個人體驗是Claude 3.5是最好的,但在LMArena上的排名卻很低。他還發現一些其他相對隨機的模型,通常小得可疑,據他所知幾乎沒有現實世界的知識,但排名也很高。他開始懷疑,Google等AI巨頭在暗中操縱LMArena的排名。要知道,就在本月初,就有報導稱LMArena可能正在成立新公司,籌集資金。在這個時候曝出醜聞,不知對此是否會有影響。業內聯名痛斥巨頭巧鑽漏洞,暗箱操作這篇報告,研究者花費了5個月時間分析了競技場上的280萬場戰鬥,涵蓋了43家提供商的238個模型。結果表明,少數提供商實施的優惠政策,導致過度擬合競技場特定指標,而不是真正的AI進步。因為存在未公開的私下測試機制,少數公司能在模型公開發佈前測試多個變體,甚至選擇性地撤回低分模型的結果。如此一來,公司便可以「挑三撿四」,只公佈表現最好的模型得分,從而讓LMArena的排行榜的結果出現嚴重「偏見」。而這種優勢,會隨著變體數量的增加,而持續疊加。私下測試模型變體數量對最佳預期得分的影響「best-of-N」提交策略對排名的模擬影響允許撤回評分會導致提供商有意抬高競技場分數比如說,Meta在發佈Llama 4之前,曾私下在LMArena上測試了27個LLM變體。而最終只公佈了其中一個分數。巧的是,這個模型恰恰就在LMArena上名列前茅。Cohere的AI研究副總裁、論文合著者Sara Hooker在接受外媒採訪時抱怨說:「只有少數公司會被告知可以私下測試,而且部分公司獲得的私下測試機會,遠超其他公司。」「這就是赤裸裸的兒戲。」從「行業標準」到「人人喊打」?與此同時,研究者還發現:閉源商業模型(如Google、OpenAI的模型)在LMArena中參與次數更多與之對比,開源模型(開放權重)不僅對戰次數較少,而且更容易在Arena中被移除這導致了一個長期的資料訪問不平等現象不同模型提供者的最大觀測採樣率採樣率反映了模型在LMArena中被普通使用者看到的頻率,也直接決定了該模型開發者能獲取多少使用者互動資料。LMArena是一個開放的社區資源,提供免費反饋,但61.3%的所有資料都流向了特定的模型提供商。具體來說,他們估算:Google和OpenAI的模型分別獲得了Arena上約19.2%和20.4%的全部使用者對戰資料而83個開源模型的總資料佔比僅為29.7%模型開發者的資料可用性情況而保守估計那怕是有限的額外資料,也可能帶來高達112%的相對性能提升。這進一步說明模型在Arena上的表現很容易被「過擬合」——即最佳化的是排行榜表現,而不是真正的通用模型質量。值得注意的是,LMArena的建構和維護依賴於組織者和開源社區的大量努力。組織者可以通過修訂他們的政策來繼續恢復信任。論文還非常清楚地提出了五個必要的改變:公開全部測試限制變體數量確保移除模型的公平性公平抽樣提高透明性官方回應論文有大量錯誤和詆毀鋪天蓋地的質疑襲來,LMArena火速出來回應了!它的官號第一時間發推回應稱,這項研究存在諸多事實錯誤和誤導性陳述,充滿了「不確定和可疑的分析」。而他們的說法,得到了GoogleDeepMind首席研究員Armand Joulin的聲援。他表示,論文中的一些資料是不精準的,比如Google只向LMArena發過一個Gemma 3的模型,進行預發佈測試。具體來說,關於某些模型提供商未得到公平對待的說法:這不符合事實。LMArena表示他們一直盡力滿足所有收到的評估請求。如果一個模型提供商選擇提交比另一個模型提供商更多的測試,這並不意味著後者受到了不公平對待。每個模型提供商對如何使用和重視人類偏好都有不同的選擇。事實錯誤:LMArena的模擬(如圖7/8所示)存在缺陷。這就像說:「NBA的平均三分球命中率是35%。庫裡的三分球命中率是NBA中最高的,為42%。這不公平,因為他來自NBA球員的分佈,而他們都有相同的潛在均值。」論文中的許多數字與實際情況不符。LMArena在幾天前發佈了部落格,公佈了不同提供商的測試模型的實際統計資料。例如,開源模型佔40%,而不是8.8%!所謂112%性能提升的說法具有誤導性,論文的結果基於LLM-judge基準,而不是Arena中的實際人工評估。LMArena的政策並非「秘而不宣」。早在一年多前,LMArena就設計並公開分享了他們的政策。模型提供商不僅僅選擇「要披露的最佳分數」。公共排行榜上列出的任何模型都必須是所有人都可以使用的正式版本,並且計畫提供長期支援。LMArena會使用新的資料對模型進行至少一個月的持續測試。LMArena的政策中一直明確說明了這些要點。顯示無法通過API或開源權重公開獲取的預發佈模型的分數毫無意義,因為社區無法使用這些模型或自行進行測試。這將違反LMArena一年多以前制定的政策。LMArena制定這項規則正是為了明確這一點:如果模型在排行榜上,則必須保證可用性。模型下架並非不公正或缺乏透明度,這與事實不符。排行榜旨在反映社區對最佳AI模型進行排名的興趣。LMArena還會下架不再向公眾提供的模型。這些標準已在我們的政策中公開聲明,並且在社區進行私下測試期間始終有效。要不,換個平台試試?正如貝佐斯所說:「當資料與個人經驗不一致時,個人經驗通常是正確的。」Karpathy也有同感。他認為這些大團隊在LMArena分數上投入了太多的內部關注和決策精力。不幸的是,他們得到的不是更好的整體模型,而是更擅長在LMArena上獲得高分的模型,而不管模型是否更好。對此Karpathy表示,既然LMArena已經被操控了,那就給大家推薦一個有望成為「頂級評測」的新排行榜吧!它就是——OpenRouterAI。OpenRouter允許個人/公司在不同LLM提供商之間快速切換API。他們都有真實的用例(並非玩具問題或謎題),有自己的私有評測,並且有動力做出正確的選擇,因此選擇某個LLM就是在為該模型的性能和成本的組合投票。Karpathy表示,自己非常看好OpenRouter成為一個難以被操控的評測平台。創始成員離開初心或已不在如今的爆火,或許讓人早已忘記,LMArena最初只是UC Berkeley、斯坦福、UCSD和CMU等高校的幾位學生自己做出來的項目。和傳統評測不同,LMArena採用的則是一套完全不同的方式——使用者提出問題,兩個匿名AI模型給出答案,然後評判那個回答更好,並最終將這些評分被彙總到一個排行榜上。憑藉著這套創新性的方法,它一舉成為了當時幾乎唯一一個能較為客觀地反映LLM性能的榜單。在輸入框中輸入問題,兩個不同的模型A和B同時回答。之後,使用者可選A或B的不同評價:A更好,B更好,平局,都不好隨著科技公司投入數百億美元押注AI將成為未來幾十年的決定性技術,LMArena也迅速走紅。在吸引客戶和人才方面,任何領先競爭對手的優勢都可能帶來重大影響,這就是為什麼眾多科技高管和工程師像華爾街交易員盯盤一樣密切關注LMArena。之後的故事,大家就都知道了。問題在於,作為課餘項目的LMArena本身並不完善。之所以能在持續的爆炸性增長下不失客觀性,靠的是創始人們堅定的初心。隨著創始成員陸續畢業,新成員的加入,LMArena似乎也離它最初的路線,越來越遠。一方面,由於投票不公開、以及那些模型應該進入競技場是由某幾位成員獨斷決定的,導致LMArena自身機制就缺乏透明性。另一方面,新團隊在某個時間點突然決定,把LMArena開放給頭部大公司做匿名模型測試。這幫摸爬滾打了多年的老油條們,顯然不會錯失這一良機。基於對大量實測資料的分析,這些技術大佬們很快就「掌握」了LMArena的調性,紛紛刷起了高分。從此,質疑聲便開始此起彼伏。 (新智元)
Claude 3.5首戰復現21%頂會論文,人類博士無法取代! OpenAI:AI全是草台班子
AI若能自主復現頂尖科研論文,未來科研將被掀翻天。 OpenAI最新框架PaperBench正為此生,讓AI智能體從頭開始復現ICML 2024 20篇優秀論文,只有Claude 3.5 Sonnet拔得頭籌,但仍無法超越ML博士水準。AI智能體,能否復現頂會中重磅的AI研究?今天,OpenAI團隊發表了全新框架PaperBench,便可評估AI智能體復現頂尖研究的基礎能力。論文地址:https://openai.com/index/paperbench/要求是,AI智能體需從0開始復現20篇ICML 2024 Spotlight和Oral論文,包括理解論文核心文獻、開發可運行程式碼庫,以及執行實驗並驗證結果。為了客觀評估AI成果,OpenAI聯手每篇ICML論文作者開發了「評估標準」,將每個複制任務層次化分解為具有明確評分標準的較小子任務。總共,PaperBench包含8,316個可單獨評分的任務。結果發現,只有Claude 3.5 Sonnet(New)拿下了最高分21.0%,o1-high得分13.2%,DeepSeek-R1是6%,GPT-4o是4.1%。遺憾的是,即便是最領先的LLM,仍無法超越機器學習博士。目前,OpenAI將PaperBench的所有程式碼開源。GitHub網址:https://github.com/openai/preparednessAI挑戰復現ICML 2024大作PaperBench的目標,直指AI智能體的科研潛力。若要完整復現ICML 2024 20篇優秀的論文,意味著AI不僅需要理解論文核心思想,還得自主開發代碼庫、運行實驗,甚至是排除故障。要知道,這是連人類研究員需要好幾天,才能完成的高難度任務。這項研究的主要貢獻包括:PaperBench:一個包含20篇ML研究論文和經作者批准的評分標準的基準測試,以及使用基於LLM評估的自動評分工作流程。PaperBench Code-Dev:基準測試的一個更輕量級的變體,放寬了PaperBench的一些要求,使設置和評估對更廣泛的社區更易於使用。JudgeEval:一個包含人類評分提交結果的資料集,可用作開發和評估自動評估的輔助工具。在PaperBench上對SOTA模型的評估:對幾個前沿AI智能體執行長周期任務和機器學習研發能力的綜合評估。更重要的是,PaperBench不僅是一個學術實驗,它還與其他AI安全框架緊密關聯。它可用作OpenAI的準備框架中的模型自主性度量、Anthropic負責任擴展政策中的自主能力指標,以及Google DeepMind的前沿安全框架中的機器學習研發評估工具。PaperBench:20篇論文,8316個任務如上所述,PaperBench選取了來自ICML 2024中20篇Spotlight和Oral論文,主要覆蓋了12個主題。其中包括,深度強化學習、魯棒性和機率方法。而且,每篇論文都配備了詳細的評分標準,總計8,316個可單獨評估的評分項目。這些標準均由每篇論文原作者與OpenAI共同製訂,確保評估過程中的精準性和權威性。評分標準採用層次結構,將複雜的複現目標分解為細粒度子任務。任務+復現對於PaperBench中的每個樣本,AI智能體會收到論文和論文澄清說明的附錄。候選智能體必須提交一個包含復現論文實證結果所需的所有代碼的代碼庫,而且代碼庫根目錄必須包含一個reproduce.sh檔案,作為執行所有必要代碼以復現論文結果的入口點。當提交的reproduce.sh能夠在全新環境中成功復現論文中報告的實證結果時,AI智能體便成功完成複現任務。樹級評分在基準測試中,每篇論文都配有一個評分標準,明確規定了完整論文複製的評估要求。評分標準被設定為一個要求層級結構,每個葉節點(leaf node)指定一個明確的通過/失敗標準(見圖2),並且每個節點都根據其相對於同級節點的重要性被手動賦​​予了權重。對於一個葉節點標準,評估者會判斷提交內容是否符合其要求,如果滿足則給予1分,否則給0分。當所有葉節點都被評分後,父節點(parent node)的分數將等於其所有子節點分數的加權平均值。這個計分過程會一直向上傳遞到樹的根節點(root),根節點的分數即被視為該提交的最終複製分數(Replication Score)。換句話說,每個提交的評分是基於所有滿足的評分標準要求的權重調整後的比例,其中100%表示完美複製,即滿足了所有葉節點的要求。目前,論文中主要評估指標是所有論文的平均複製分數。每個葉節點有三種可能的需求類型之一,這決定了其評分方式。結果匹配(Result Match)葉節點評估已執行的提交是否包含複製論文中特定結果的證據。執行(Execution)葉節點評估運行reproduce.sh指令碼時是否產生了某些特定的執行結果。代碼開發(Code Development)葉節點評估候選者的原始碼是否包含某些需求的正確實現。可以上網,但不能查看原作者代碼庫PaperBench設計為與智能體支援框架(agent scaffolds)無關,因此研究團隊對智能體的運行環境沒有特定要求。然而,基準測試確實制定了一些規則來確保公平比較:智能體可以瀏覽互聯網,但不得使用OpenAI提供的每篇論文黑名單中網站的資源。每篇論文的黑名單包括作者自己的程式碼庫和任何其他線上複製實現。智能體可使用的資源,如執行階段間和計算能力,不受任何限制。開發者應為智能體提供必要的線上服務API金鑰(例如,用於下載資料集的HuggingFace憑證)。對於實驗,OpenAI還建構了一個簡單的後處理監控工具,用於檢查智能體日誌中是否出現黑名單URL,發現可疑情況後會提交給人工審計,以取消使用黑名單資源的任何提交資格。LLM評判成本降至10美金,比專家更有效率面對如此複雜的任務,人工評分顯然不現實。一篇論文的複現嘗試,通常需要人類專家數十小時來評估。為此,OpenAI團隊開發了一個基於大模型自動評判系統,並推出了輔助工具JudgeEval,用於驗證自動評判者的表現。對於給定的提交內容,評判系統SimpleJudge會獨立地對評分標準中的每個葉節點進行評分。針對特定葉節點,評判系統會接收論文的Markdown格式文字、完整的評分標準JSON檔案、葉節點的具體要求和提交內容作為提示詞。如下圖5所示,對於PaperBench Code-Dev,每篇論文的成本降至約10美元,證明了比聘請專家進行人工評分更加經濟且有效率。Claude 3.5 Sonnet得分最高實驗中,研究人員對GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet(New)和Gemini 2.0 Flash在所有20篇論文上進行了評估,每篇論文進行了3次運行。而且,他們每個智能體設定了最長12小時的執行階段限。如下表4所示,展示了各模型的平均復現分數。其中,Claude 3.5 Sonnet表現最出色,得分達到21.0%。 OpenAI o1表現較弱,得分為13.2%,其他模型表現不佳,得分均低於10%。為了更好地理解智能體性能,研究人員手動檢查了幾個智能體的運行日誌。他們發現,除了Claude 3.5 Sonnet外,所有模型都經常提前結束任務,聲稱它們要麼已完成整個複現工作,要麼遇到了無法解決的問題。所有智能體都未能製訂有效策略,考慮如何在有限時間內最優地復現論文。我們也觀察到o3-mini在工具使用上經常遇到困難。這些失敗模式表明當前模型在執行長期規劃任務方面存在弱點:儘管在製訂和編寫多步驟計劃方面表現出充分的能力,但模型未能實際採取一系列行動來執行這些計劃。迭代智能體鑑於模型往往無法充分利用可用的全部時間,研究人員還測試了BasicAgent的一個變體。這個變體透過移除智能體提前結束任務的能力,強制其在全部可用時間內持續運行,並使用經過優化的提示詞來鼓勵模型以逐步方式工作。他們將這個智能體稱為IterativeAgent。研究人員使用IterativeAgent對o1、o3-mini和Claude 3.5 Sonnet進行了測試,如下表5所示。他們發現使用IterativeAgent後,o1和o3-mini的得分顯著提升。值得注意的是,在使用BasicAgent時,Claude 3.5 Sonnet的表現優於o1,但在使用IterativeAgent時,其表現卻不如o1。這顯示為IterativeAgent優化的提示詞,對OpenAI o系列模型有著不同程度的適用性。研究人員推斷,如果對BasicAgent進行類似修改,同樣防止其提前結束任務,可能會使Claude 3.5 Sonnet的表現超過使用IterativeAgent的o1。人類拿下41.4%此外,研究人員還招募了8位目前正在攻讀/已完成ML博士學位的參與者來挑戰3篇論文的子集。這裡,他們採用了AI智能體類似的條件來評估參與者。參與者會拿到PDF和Markdown格式的論文,以及論文的附錄和盡可能接近用於AI智能體的指令,並可使用單一輝達A10 GPU。參與者兼職工作,有四個星期的時間窗口來取得盡可能多的進展。另外,團隊對使用IterativeAgent的o1進行了36小時的延長運行,每小時保存快照,並對1、3、6、12和36小時時拍攝的快照進行評分。如圖3所示,比較了o1的這次36小時延長運轉與人類隨時間的表現。研究觀察到,o1在復現嘗試的早期階段最初優於人類基準,但在24小時後,人類開始超過AI智能體。智能體最初優於人類但在更長時間跨度內落後的趨勢與先前結果一致。ML博士在48小時內(3次嘗試取最佳)拿下了41.4%高分,而統一子集上,o1僅為26.6%分。這表明,與人類專家相比,AI儘管進步顯著但仍有差距。此外,研究人員還推出了一個輕量級變體PaperBench Code-Dev,在這個版本中,o1的得分飆升至43.4%,顯示出AI在簡化任務上的潛力。結論21%得分或許只是一個開始。PaperBench不僅揭示了AI智能體在科學研究中的潛力,也揭露它們在長期規劃任務中的限制。下一步,隨著模型能力提升,它們能夠接近甚至超越41.4%人類基準?參考資料:https://openai.com/index/paperbench/ (新智元)
日經新聞—最前沿的AI論文,中國緊追美國
日本經濟新聞對頂尖三大國際學會改採納的AI論文進行分析,2024年排名前50的機構被採納論文的作者人數,第一是美國為14766人,第二的中國為8491人。機構前10,中國佔4家…… 在人工智慧(AI)研究實力方面,中國正在緊追美國。對頂尖研究成果雲集的三大國際學會改採納的論文進行分析後發現,在作者人數排名前十的機構中,有四家來自中國。中國機構已成功開發出可與美國相媲美的生成式AI。以對立的中美兩國為核心,全球的AI研究正在不斷推進。日本正在不得不以美國為中心展開國際合作。 日本經濟新聞(中文版:日經中文網)對2020至2024年被AI國際學會 “NeurIPS(神經資訊處理系統大會)”“ICML(國際機器學習大會)”“ICLR(國際學習表徵會議)”採納的約3萬篇論文的作者及其所屬研究機構等進行了分析。 這三個學會每年都會收到幾萬篇論文,能夠通過專家評審並被採納的論文為2至3成左右。2024年獲得諾貝爾物理學獎的傑弗裡·辛頓 (Geoffrey E. Hinton)等人也一直在發表論文。         按國家來觀察,2024年排名前50的機構被採納論文的作者人數,位居第一的美國為14766人,位列第二的中國為8491人。最近幾年,中國的研究實力迅速提升,作者人數在四年內增加到了8倍。